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Ho 要 通过 对 大 肠 杆菌 РМА 聚合 酶 识别 的 44 个 启动 子玉 其 起 始 位 点 进行 统计 分 析 、 估 
计 了 PRIBOW 的 系列 范围 ， 计 算出 它们 的 信息 量 。 所 得 结果 与 真 枝 生物 中 HUMAN ТАТА 
框 进行 比 较 、 得 到 了 这 两 个 物种 的 信息 量 曲线 与 不 确定 值 曲线 都 具有 显著 差异 、 龙 其 在 
PRIBOW 和 TATA 框 与 起 始 位 点 的 对 应 关系 上 得 到 明显 不 同 的 结果 。PR1IBOW 与 起 始 位 点 有 
比较 明显 的 关系 ， 而 HUMAN 的 ТАТА 抠 与 起 始 位 点 的 对 应 关系 则 不 太 明 确 。 


关键 词 PRIBOW. 信息 量 , ТАТА ЇЕ. Suti щі 
中 图 分 类 号 0936 


对 于 原核 生物 КМА 的 转录 过 程 已 有 了 明确 认识 。 它 的 起 始 机 制 是 КМА Ж ТЕН Ж 
与 启动 子 -35 区 域 的 识别 信号 相互 作用 ， 再 与 -10 区 域 的 PRIBOW (相当 于 真 核 生物 的 
ТАТА 框 中 的 结合 位 点 相 结 合 ， 然 后 移 到 转录 起 始 位 点 引发 ВМА WAR GDA 
等 ，1993)。 因 此 ， 对 原核 生物 而 言 。 只 要 PRIBOW 位 置 确定 后 ， 起 始 位 点 的 位 置 也 就 
基本 确定 了 。 

对 于 真 核 生 物 RNA 转录 的 起 始 过 程 现 在 还 不 很 清楚 ， 其 原因 在 于 转录 机 构 十 分 复 
杂 。 启 动 子 包含 了 许多 转录 因子 。 在 众多 的 转录 因子 中 ， 它 们 之 间 的 关系 如 何 ， 还 没有 明 
确 的 结论 。 即 使 ТАТА 框 位 置 确定 之 后 ， 也 不 能 确定 起 始 位 点 的 位 置 。 原 因 在 于 与 
ТАТА 框 作 用 的 反 式 作用 因子 很 多 ， 在 一 定 程度 上 ， 对 起 始 位 点 的 选择 具有 一 定 的 影响 
作用 。 


1 方法 与 结果 


” ”采用 文献 中 常用 的 信息 论 方法 对 DNA 符号 系列 进行 分 析 。 定 义 了 对 一 给 定 的 符号 系列 ， 
Wd В 在 位 置 i 出 现 的 不 确定 值 : 
Hi= — У AB iog: KB.) 
ГОВ, DARE 8B 在 系列 中 任意 位 置 出 现 的 频率 ， 对 于 /(В. 0-0 BOSE EUIS EEA. 
对 于 样本 数 为 N 的 不 确定 值 的 期 望 定义 为 : 


nC 
N! 
ЕН)= hy У ат nC, пб, пТ)Н(пА. nC, nG. nT) 


пА = 0 лс = 0 лб =0 


Ж Җ 1996-12-09 Ux 3l, 1998-03-27 Ы 
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其 中 nT= N-nA-nC-nG, PinA, nC, nG, nT)=[PRA RAOT AOP 为 在 入 个 
随机 DNA 系列 中 找 具 有 mA А, nC C, по G. AnT THRE, Hind, nC. nG, 
aes 2 为 相应 的 不 确定 值 。 
ELH',) 的 标 谁 差 为 : 
oH i) = N EGHn?) — [ЕСН „)]? 


对 于 有 限 样本 数 
Ra = Е(М„)— H.D 


对 于 样本 中 碱 基 ERE 1 出 现 频 素 的 最 佳 估 计 为 ; 


нв +1 
"s NFI 


ne 为 如 出 现在 位 置 1 的 数目 。N = та, ЕЁ. £55 ИВЕТА, 0« 房 < 1。 对 一 给 定 





系列 ， 碱 基 8 位 于 位 置 /的 贡献 为 ， 


71 i0 + 0.5 
D +05 





£u == А а 


其 中 no 为 位 于 位 置 ! 中 的 最 大 频率 。 

对 于 符号 系列 中 位 置 /的 最 优 信息 量 的 估计 为 : 

e nm + s +1. +4. 
0 = 2 na ; J isg: (nu tl UN 4.5) 

本 文 研 究 对 象 是 可 被 大 肠 杆 苗 RNA Ж-А Н) 44 个 启动 子 {Siebenlist $, 1980). TE 
对 HUMAN 的 ТАТА 框 进行 统计 分 析 中 ， 作 者 选择 了 以 TATA 框 为 中 心 ，? 与 3 端 各 9 个 
碱 基 ， 总 数 为 24 个 碱 基 进 行 分 析 ， 计 算 结果 见 表 2。 同 时 也 选取 了 以 PRIBOW 25 fob, 5^8 
9 个 ，3 端 第 8 "ML BH UE ACA IR НО d oux, IRR 3' 端 9 个 左右 碱 基 ， 总 数 24 个 碱 基 
进行 统计 分 析 。 

首先 将 44 个 启动 子 以 PRIBOW 和 起 始 位 点 对 谁 ， 结 果 见 Siebenlist 等 (1980)， 本 文 所 
选 系列 见 表 1。 然 后 依据 公式 分 别 计 算 了 fs，s rm EH, НАР, Ry. Ты. НВ, 
表 3。 与 HUMAN GE 2) 的 比较 结果 见 图 1。 


2 Н it 
21 PRIBOW 5 ТАТА 框 的 比较 

从 图 1 可 见 ，PRIBOW 5 ТАТА 框 具有 明显 的 信息 量 和 不 确定 值 ， 它 们 的 曲线 走势 
除 12 位 具有 显著 性 差异 外 ， 基 本 上 是 一 致 的 。 从 表 2 和 表 3 可 见 ，PRIBOW 的 一 致 系列 
Jj TATAAT, ТАТА 框 的 一 致 系列 为 TATAAA。 在 图 1 中 ， 二 者 的 不 确定 值 都 有 极 值 
A, PRIBOW 在 15 位 达到 ，TATA EÉ 12 位 达到 ， 位 置 不 同 ， 但 都 为 碱 基 T， 这 种 现 
象 在 信息 量 曲线 上 也 有 同样 的 表现 。 比 较 表 1 和 表 2 的 10~ 15 位 发 现 ，E.cofi 在 12, 
13, 14 位 的 7 seq (25 HUMAN 在 相应 位 置 7 seq (ОНЕ, Дж. HUMAN 


0000 http:Wwww.cqvip.com 


19 4 


EENET T O 
LY DLLL YJ ce- 19188 Lv J320 LY IDYDYL LODLYLLJO X- ахта 


IDDLYL JÐLYLLƏLL 


22 
l2 
29 
ээ 
LD 


22VOVOD 
2V2923D00v 
23222302090 
232v. LI 
20D JL 
уо 29 
LLLO DD 
LLLO DL 
VDOVIOYV 
YDOIYLDY 
2D02v1DV 
2232D250v 
0020 VD 
LLOD LV 
DODID L9 
NDDLIDI 
IVVID0V 
QLIDI Lv 
JIV2V2O 
2299 LY 
3221220 


zx 物 学 WP 究 
ББкБноо «Бнр <<Оо ь 
HO HO 





310 


LYLLYL 
LYLYYL 
LYDLYL 
LvvoOVvl 
IVvvv.l 
Куш 
LYƏLDL 
LLYYYL 
TOYYLL 
Оуу. 
I2vv.LL 
LYDLYD 
LOLLV.L 
Озу. 
LYYLYL 
УУГУ, 
LYYYYL 
LIDYVYL 
алу 
Ку! 
LVLYYL 


MOIN d 


020DVVD)50 
DIDYYYDDY 
VOLLLVOLOD 
DLDLLLLYD 
DIIDDILYID 
JÐDYVYYLYDƏL 
LLLLOODOV 
LLIILYYVYL 
DYIIVYDYL 
DvVOOVVD2D 
DVIOVVDOL 
DDLVIODOO 
DOLDLDLLO 
LOLLLOLVvVO 
DITLIDDIIL 
79011292990 
DDDOVYV.LL 
JLVVLLOLO 
223001025VV 
ILDDLIVLL) 
210V22V2L 





tt- 
T7- 


【YUJJ 
ахан 
rr- УМҸНА 
tč- god] 

CC 一 пч 
ce- їл 
tł- zew 
zZ- %640!4 
zr- ‘TSUdn 
tt- wr şan 
ct x3dn 
EC Pe 
zz- yyTTOdoef 
А 29183 
SANI 
MP 
VNU-ETW 
АР 
По 
ato 
YPO 


#7 





DI 2DLDVDLD 
2D DELVYVYDY 
УУ VOVLLODO 
LD v230DVD 
DL 230D0DVVVI 
LD I220L VD 
О О DvOYDV 
УУ 9OL2 2D 
lv DLLY OY 
LY DOLLY 
DY LLOLVL 
DV vvYOVVOV 
2 У VOLOVDL 
КО LDDV LY 
L3 LYLLOƏL 
LY DYID YD 
LD 1520LOVD 
LY LDDYY VL 
Lv 2DLLOD 
LY 2320V9VLl 


DYIIYLD 


aouanbesqns MAOHIMd Тоз 7 
tHE MOSIA МНИ 1% 





LYLOVL 
LYOYYL 
LYYLYL 
ААА АЛАЛ 
IVVOVLl 
уузу 
LYYLYL 
LYƏLLL 
LYYLYL 
IVvlvl 
TILOVYL 
LvyvYYYD 
LLyvvl. 
LƏVƏYL 
LYYLYL 
LƏYLYO 
上 YYLVD 
LLY9YL 
LYYLYO 
LIY1YD 
LYDƏYL 


AOSnid 


VERE bii 
————————————MM— M———————ÉÉÁ—— 


I әд], 


LVD0)010250V 
DYIDLY YYY 
LIDYIDLLY 
DDIOV)12)2 
YDDDVYYLY 
VLLODLLIV 
JVDIOLLOD 
LOLYLOLLY 
DIO.LLLLLV 
VDLIOlLVV 
YDOLIDDDLY 
IVILIOLLVOV 
ООО УУУУ 
VIDLYYYLY 
LDLLY YYLY 
LODIDDLYY 
LOLLLYLƏL 
VDILDDDDIL 
LDDIDDLIL 
DVLlvl20VV 
ООЭУЭУУУІ 





zł- 
《一 
tł- 
C= 
tr- 
tt- 
Tl- 
《5 一 
zz- 
e 
tr- 
TZ- 
С 
tt- 
TZ- 
c- 
ze- 
сс 
ec- 
TZ- 
《5 一 





ux 


ахча 
[А [А 
OFAS 
AB) 
Шр) 
ПР) 
ХР) 
Yxmd 
STSL 
9251. 
DLL 


UdttpY 


dr 
шу 
LiOY 
7197 
OdY 
нт 
чах 
IVLL 
EVLL 





0000 http//www.cqvip.com 


4 期 T 115. ХЮ PRIBOW 与 起 始 位 点 的 统计 分 折 311 


在 这 些 位 置 上 无 G， 且 为 和 的 只 有 11、13 位 的 各 1 个 ， 而 大 肠 杆 菌 的 G 和 C 比较 多 ， 
这 可 能 与 进化 有 关 。 总 体 来 看 ，HUMAN 的 信息 量 值 比 大 肠 杆菌 的 大 。 
22 HUMAN 与 大 肠 杆 菌 的 起 始 位 点 比较 

从 表 3 和 图 1 可 见 ，HUMAN 与 大 肠 杆菌 的 起 始 位 点 有 明显 的 特征 。 大 上 肠 杆菌 起 始 
位 点 的 信息 量 为 0.46。 在 文献 (Fabio，1990) 中 ， 作 者 另外 选取 62 个 基因 系列 ， 以 起 始 位 
点 对 谁 ， 计 算 了 起 始 位 点 的 信息 量 ，HUMAN 起 始 位 点 的 信息 量 为 0.43， 与 大 肠 杆 菌 无 
显著 性 差异 。 从 碱 基 出 现 的 频率 来 看 ， 二 者 都 是 A 最 高 ，G 次 之 ， 一 致 碱 基 都 为 A. 


%2 НОМАМ Ё ТАТА Е 
Tahle 2 Statistics of НОМАМ ТАТА Бох 


1 тА y "c y лс I AIT ! cons * fa Лс fio IT ia 3 &\с Е ба $ ат » EU, нА)" Rei)? HEUS 
1 5 18 12 9 с 013 0.40 027 021 121 0.00 0.39 0.67 195 1.86 0.09 0.16 
2 11 10 и 12 - 025 023 025 027 008 017 008 0.00 195 200 -005 005 
3 7 11 20 6 g 017 0.25 044 015 1.01 0.58 000 1.15 1.95 1.83 012 019 
4 14 12 13 5 - 0.31 027 0.29 013 0.00 0.15 007 097 1.95 1.91 004 0.12 
5 12 9 14 9 - 0.27 0.21 031 0.21 0.15 042 000 0.42 1.95 1.97 0.01 007 
5 14 9 16 5 г 0.31 0.21 0.35 0.13 0.13 0.55 0.00 1.10 195 188 007 014 
7 12 13 13 6 - 0.27 0.29 0.29 0.15 0.08 000 0.00 0.73 195 1.94 0.01 0.09 
8 9 18 9 8 ~ 0.241 0.40 021 0.19 0.67 000 067 0.78 195 191 004 012 
9 4 14 14 12 b 010 031 031 0.27 1.17 000 0.00 015 195 188 007 0.14 
10 1 2 4 37 T 0.04 006 010 0.79 322 271 212 0.00 {95 085 110 0.99 
1 41 1 0 2 А 0.88 0.04 0.02 0.06 0.00 3.32 4.42 281 195 042 153 1.31 
12 0 0 0 44 T 0.02 002 0.00 094 4.49 449 449 000 195 000 195 160 
13 37 1 0 5 A 0.79 0.04 0.00 015 000 3.22 432 1.75 195 0.73 122 1.05 
14 38 0 0 6 A 081 002 0.02 0.15 000 4.34 434 1.78 1.95 058 137 116 
15 42 0 2 0 A 090 0.02 006 0.00 000 444 283 444 195 027 168 141 
16 22 3 7 12 a 048 0.08 0.17 0.27 0.00 1.86 1.10 059 1.95 170 025 029 
17 17 4 18 5 г 0.38 010 0.40 0.13 0.06 141 000 121 195 173 0.22 027 
18 2 21 20 s 006 0.46 0.44 0.04 2.15 000 0.05 2.66 1.95 1.35 050 056 
19 4 15 17 g s 010 0.33 0.38 019 1.36 0.12 000 072 195 182 013 019 
20 5 19 13 7 с 013 042 029 017 1.27 0.00 037 096 195 182 013 019 
21 10 13 9 12 - 0.23 0.29 0.3] 0.27 0.25 0.00 0.35 008 195 199 -004 0.06 
22 4 11 26 3 а 010 025 056 0.08 1.77 0.83 0.00 2.02 1.95 1.53 042 044 
23 и 20 11 B 006 025 044 025 210 0.58 000 0.58 1.95 172 023 027 


47 8 15 4 0.17 019 0.33 031 0.73 0.60 000 007 195 192 003 оп 





T% А Fabio Б. Penotti 1990) (From Fabio E. Penotti 41990), 

ЗЕЛ ЕВ Ар die et AERE PILIS ЖЕ В НАЕ. ЮЕ, ЕЖЕН КОЕК F 
0.54 ШИН ACEE R, ВАННУ, ERA Hs (95 E UHn MB Ki OL. ATA хажи У хай 
ЗЕТЕ — 4-1 ЙЕ ЖЕ VA 8 RC Е (Bishop, 1987) (The consus icons.) nucleotide at a given position is by Table 2 
definition the one most often found at that position in human statistics the sample. By convention. It is indicated by 
capital letter otherwise. Here we have chosen not to indicate a consensus base for those positions 1 at witch the ob- 
served sequence uncertainty Hs(/) is actually higher than the expected value for a sample old the same size Е (Hz), 
or in any case falls within 1 standard deviation of it, and to use ambiguity codes (Bishop er al, 1987) whenever the 
second largest nucleotide frequency fall within 1 standard deviation of the largest one-]。 

Э.У А! (їп units of A). 

ad pri Жап bitsh 

DREA с (Нп)+0.04 (the standard deviation of this estimate is g і Hz Y&20.04 bit), 


表 3 ХВ PRIBOW 统计 结果 
Table 3 Statistics of E. сой PRIBOW 


Hia : "nec Е пс : тт È сопз.® Ла Лс fs fr ё $ ic v Eig ý E Е EH Hae ПЫ LUE 


18 5 9 12 a 0.40 0.13 0.21 028 000 121 0.67 0.39 1.95 187 0.08 
16 5 14 г 0.21 0.36 013 0.32 055 (0.00 1.10 013 1.95 189 006 
9 9 11 15 = 021 021 0.26 0.34 0.49 0.49 030 0.00 195 198 0.03 


16 5 12 11 г 0.36 013 0.28 0.26 000 1.10 0.28 0.36 195 191 0.04 
12 7 7 18 t 028 0.17 017 0.40 0.39 090 090 0.00 [95 1.89 006 
10 12 8 14 - 023 0.28 0.19 0.32 0.32 0.15 053 000 1.95 198 -003 
2 7 14 2l t | 006 0.17 0.32 0.47 2.15 1.05 0.39 000 195 166 028 
8 7 22 7 в 019 0.17 0.49 017 0.97 110 0.00 1.10 1.95 1.80 0.15 
7 8 16 13 г 017 0.19 0.36 0.30 079 066 000 0.20 195 193 002 
9 2 4 38 T 002 006 0.11 083 434 273 215 000 195 068 127 
38 0 ! 5 A 0.83 0.02 0.04 0.13 0.00 4.34 325 195 1,95 064 130 
12 8 2 22 T 0.28 0.18 0.06 049 0.59 097 2.20 000 195 1.67 0.28 
27 2 T B a 060 006 0.17 019 000 240 1.30 1.17 1.95 1.51 044 
28 10 3 3 A 0.62 0.23 009 009 0.00 10 210 210 1.95 141 0.52 
0 0 0 44 T 002 002 0.0? 0.946 4.49 449 4.49 000 195 -0.00 1.95 
16 5 14 9 s 0.36 013 0.32 021 0.00 110 043 0.55 1.95 1.89 0.06 
10 ц 13 10 = 0.23 026 0.30 023 025 016 040 025 195 200 -006 
7 5 4 4 0.17 0.13 011 011 0.00 0.31 051 051 195 142 0.52 
12 9 10 12 ~ 028 0.21 0.23 0.28 000 027 0.17 000 1.95 1.99 -0.04 
6 19 10 9 c 0.15 043 023 0.21 1.10 000 062 0.2 1.95 188 0.07 
了 15 11 11 - 017 0.34 0.26 0.26 0.73 000 0.30 0.30 1.95 1.96 0.01 
7 22 4 11 0.17 0.49 011 0.26 1.10 0.00 1.51 0.67 1.95 +74 021 
24 14 1 0.53 0.13 0.32 0.04 0.00 1.49 0.52 279 195 148 046 


6 9 6 23 t 015 021 0.15 0.51 1.29 091 129 000 1.95 1.75 020 
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工 按 表 1 的 样本 十 算 (From the sample of 54 listed in Table 1), 

Эр 2 (тот conventions, see Table 2}, 

FAA 27! (їп units of 4! f, 

d) 按 位 计算 (in bits) 

аф A ol Hn 120 04 (the standard deviation of this estimate is с (#79)22(0 04 bit). 
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碱 基 在 序列 中 的 位 置 碱 基 在 序列 中 的 位 置 


图 1 大 肠 杆 菌 ( 连 线 ) 与 人 (点 线 ) 的 信息 量 和 不 确定 值 曲线 比较 
Fig.1 Uncertainty and information content for Ё, coli (continues lines) and human (dotted lines) 
IAGGEBROS BGB EHE. EEH t cuni se (A HR ER E (Hn! [the three hore 
zontal line in (a! show the*reference"value of the uncertainty E(Hzn) for the two sample, with er- 


ror bars corresponding to т ( Hz). 
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23 起 始 位 点 与 HUMAN 和 大 上 肠 杆菌 的 对 应 关系 比较 

从 图 1 可 见 ，PRIBOW 的 特征 曲线 后 ， 紧 接着 为 起 始 位 点 的 特征 曲线 ， 即 PRIBOW 
与 起 始 位 点 是 对 应 的 。PRIBOW 确定 起 始 位 点 的 选择 。 从 信息 量 曲 线 以 及 不 确定 值 曲线 
的 特征 可 以 看 出 ， 起 始 位 点 的 特征 为 PRIBOW 提供 了 很 好 的 依据 。 而 对 于 HUMAN 而 
言 ， 其 转录 机 制 是 复杂 的 ， 起 始 位 点 不 仅 由 TATA 框 决定 ， 而 且 与 反 式 作 用 因子 以 及 调 
控 机 制 有 关 ，HUMAN 与 起 始 位 点 对 应 关系 次 于 大 肠 杆 菌 。 值 得 注意 的 是 ， 与 大 肠 杆 蓝 
的 起 始 位 点 系列 位 置 基本 一 致 (22 位 ) 的 HUMAN 基因 系列 中 ，HUMAN 也 有 具有 0.42 
АВ, {АНЕ HUMAN 的 起 始 位 点 。 这 似乎 验证 了 调控 机 制 起 开关 的 作用 。 
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Abstract 


In this paper, a statistical study of PRIBOW and transcription initiation sites іп £. 
coli DNA protein-coding genes was presented. The range over which the two signal se- 
quences extend was assessed, and their information content was evaluated. The results were 
compared with those obtained from* НОМА №” samples. Statistically significant difference 
were found for both signals, and were especially for corresponding to the transcription initia- 
tion site. 
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